Hacia una anotación de dependencias enriquecida de corpus españoles
نویسندگان
چکیده
We present a cost-effective strategy for the creation of a mid-size fine-grained Spanish dependency tree bank of surface-, deep-syntactic and semantic structures as defined in the Meaning-Text Theory. The strategy starts from a small seed dependency corpus, the AnCora corpus, whose annotation is considerably more coarse-grained than our target annotation. We show that this discrepancy can be bridged largely by automatic means. This allows us to develop the resources with limited human effort within a limited period of time. We also propose a preliminary evaluation of the actual amount of work that the annotation process requires.
منابع مشابه
How Does the Granularity of an Annotation Scheme Influence Dependency Parsing Performance?
The common use of a single de facto standard annotation scheme for dependency treebank creation leaves the question open to what extent the performance of an application trained on a treebank depends on this annotation scheme and whether a linguistically richer scheme would imply a decrease of the performance of the application. We investigate the effect of the variation of the number of gramma...
متن کاملEl consumo de medios informativos y las actitudes hacia los inmigrantes. Álvarez-Gálvez, Javier (ARTÍCULOS. REIS No145)
Aunque existen evidencias de la importancia de los medios en la formación de actitudes de los españoles hacia el colectivo inmigrante, raramente se diseñan indicadores de encuesta que permitan explicar la relación entre el tratamiento mediático que recibe la inmigración y las actitudes de los nativos hacia dicho fenómeno. En este trabajo, haciendo uso de una muestra de estudiantes universitario...
متن کاملAspectos ortográficos, léxicos y morfosintácticos del etiquetado lingüístico de un corpus de informática en lengua gallega
Resumen. En este trabajo se examinan algunos aspectos del etiquetado lingüístico de un corpus técnico de informática en lengua gallega, en lo que respecta a cuestiones ortográficas, léxicas y morfosintácticas. En primer lugar, presentamos la características del corpus analizado y algunas de las aplicaciones de su procesamiento. A continuación, mostramos las técnicas empleadas en su anotación mo...
متن کاملUn Marco para la Definición de Métricas sobre Modelos de Dependencias entre Actores
Resumen. Los modelos de dependencias entre actores son un formalismo que describe los procesos como una red de relaciones de dependencias entre actores. En la actualidad, este tipo de modelos se usa, entre otros, en las fases preliminares del análisis de requisitos, en el análisis organizacional y en la reingeniería de procesos. En este artículo, proponemos un marco para la definición de métric...
متن کاملAnotación automática de datos acerca de la reputación de los políticos en redes sociales
Resumen. Recientemente, la minerı́a de opinión en Twitter, por medio de la Recuperación de Información (RI) y del Procesamiento de Lenguage Natural (PLN) atrajo interés en la investigación polı́tica. Sin embargo, la obtención de datos anotados de dominio especı́fico sigue siendo un paso manual muy costoso. Además, la cantidad y calidad de estas anotaciones pueden ser crı́ticas en relación al rendim...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Procesamiento del Lenguaje Natural
دوره 43 شماره
صفحات -
تاریخ انتشار 2009